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摘 要 : [目的 /意义 ] 网络 社区 中 存在 多 种 知识 单元 ,知识 单元 间 又 有 错综复杂 的 关系 。 有 必要 在 保留 知识 单元 全 局 信息 
的 前 提 下 ,统一 \ 简 洁 地 开展 多 元 知识 关联 挖 气 。[ 方法 /过程 ] 提 出 网 络 社区 多 元 知识 关联 挖 气 的 实现 方案 。 首 
先 ,将 网 络 社区 中 3 种 典型 知识 单元 (用 户 、 文 本 、 词 语 ) 及 其 在 知识 交流 中 多 种 关系 抽取 为 超 网 络 ; 其 次 ,利用 网 
络 表示 学 习 算 法 将 超 网 络 中 节点 表示 为 统一 特征 空间 下 的 低 维 稠密 向 量 ;最 后 ,基于 节点 的 向 量 开展 多 元 知识 关 
联 计算 。[ 结果 /结论 ] 以 丁香 园 心 血管 论坛 为 例 开展 实验 ,验证 方案 的 有 效 性 。 该 方案 既 保 留 知识 单元 的 全 部 信 
息 ,知识 关联 的 挖掘 又 在 统一 低 维 特征 下 开展 , 且 最 终 所 得 的 知识 关联 满足 网 络 社区 知识 组 织 场景 多 样 性 的 要 


求 。 
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超 网 络 ”网络 表示 学 习 ”网 络 社区 


J 当前 ,网 络 社区 用 户 与 资源 数量 迅速 积累 ,已 成 为 
用 癌 知 识 交流 和 利用 的 重要 场所 。 然 而 ,网 络 社区 普 
道 福 在 资源 “碎片 化 "和 知识 组 织 *“ 粗 粒度 化 "的 问题 ， 
导 玫 大 量 有 重要 价值 的 知识 洽 没 于 海量 数据 中 ,难以 
被 二 户 有 效 获取 与 利用 。 网 络 社区 知识 组 织 面临 的 一 
个 类 键 问题 是 ,知识 单元 "形式 复杂 且 粒 度 差异 明显 ， 
诸如 用 户 .帖子 .评论 .主题 等 都 是 知识 组 织 中 需要 涉 
及 的 知识 单元 ,而 同 粒度 与 跨 粒 度 知识 单元 之 间 又 存 
在 错综复杂 的 多 种 关系 。 有 必要 全 局 性 .系统 化 地 杭 
理 这 些 关系 ,并 在 其 基础 上 开展 多 元 关联 挖 气 与 揭示 ， 
以 促进 网 络 社区 知识 组 织 的 深化 、 细 化 。 

目前 ,网 络 社区 知识 关联 发 现 以 一 元 关系 挖掘 为 
主 ,多 元 关系 挖掘 主要 利用 超 网 络 技术 对 多 个 一 元 关 
系 进行 多 元 描述 ,各 类 型 关系 相互 独立 ,本 质 是 一 元 关 
系 的 多 元 呈现 。 尚 未 真正 实现 全 局 视角 下 的 多 元 关联 
挖掘 ,并 且 网 络 节点 及 关系 的 异 构 也 导致 跨 粒 度 多 元 
关系 利用 困难 。 


中 列 含 的 多 元 知识 关联 ? 笔者 提出 一 种 方案 :通过 构 
造 网 络 社区 知识 超 网 络 以 保 隐 全 局 性 ,再 利用 网 络 表 
示 学 习 将 知识 单元 表示 为 形式 一 致 的 低 维 稠密 向 量 ， 
各 种 知识 单元 间 的 关联 均 可 基于 其 向 量 计 算 获 得 。 该 
方案 可 快速 生成 网 络 社区 多 元 知识 关联 体系 ,用 于 指 
导 网 络 社区 知识 组 织 ,并 以 医学 网 络 社 区 丁香 园 心血 
管 论坛 为 对 象 ,验证 该 方案 的 可 行 性 与 有 效 性 。 


2 相关 研究 


2.1 网 络 社区 多 粒度 知识 单元 关系 挖掘 

网 络 社区 主要 包括 用 户 ,文本 与 词语 3 种 粒度 的 
知识 单元 , 同 粒度 与 跨 粒 度 知 识 单元 之 间 存 在 多 种 关 
系 。 其 中 一 元 关系 挖掘 包括 :中 用 户 -用户 关系 。 细 
分 为 直接 关系 与 间接 关系 。 前 者 通过 分 析 用 户 之 间 的 
关注 回复 等 行为 得 到 ,后 者 通过 分 析 直 接 关 联 得 
到 ” 。@ 文 本 - 文本 关系 。 利 用 文本 相似 度 衡 量 , 相 
似 度 计算 中 常用 扩展 源 包 括 : 领域 本 体 ” 、 搜 索引 
掌 ” “等 。@ 词 语 - 词语 关系 。 标 签 是 语词 关系 挖掘 
重要 对 象 ,关系 强度 主要 从 共 现 频次 转化 而 来 ,学 者 利 


如 何在 保留 全 局 视角 的 前 提 下 ,屏蔽 网 络 社区 
粒度 知识 单元 和 异 质 关系 的 干扰 ,简洁 有效 地 揭示 ] 


Dy 


用 社会 网 络 分 析 ” 、LSA (latent semantic analysis) 0 等 
方法 挖掘 标签 的 语义 层级 关系 ,弥补 语义 缺失 的 不 足 ; 
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除 此 之 外 ,可 利用 主题 识别 或 抽取 技术 从 文本 中 自动 
识别 特征 或 抽取 新 特征 ,并 挖掘 结构 化 语义 关系 ”。 
@ 用 户 - 文本 关系 。 细 分 为 直接 关系 与 间接 关系 。 前 
者 根据 用 户 对 文本 的 发 布 、 分 享 等 行为 信息 转化 得 到 ， 
关系 强度 依据 行为 类 型 可 人 工 给 定 阔 值 。 后 者 通过 文 
本 -文本 关系 或 用 户 - 用 户 关 系 传递 得 到 ,实质 是 基 
于 文本 或 用 户 的 协同 推荐 "”"”。@ 文 本 - 词语 关系 。 
从 文本 信息 中 提取 标签 或 特征 词 时 ,文本 - 词语 关系 
就 已 建立 。 关 系 强度 计算 思路 主要 分 为 两 种 :一 种 是 
“0,1”, 即 只 统计 特征 词 在 文本 中 出 现 与 否 ; 另 一 种 利 
用 特征 权重 ( 如 下 -IDF ,信息 增益 等 ) 进 行 细 粒度 衡量 。 
@ 用 户 -词语 关系 挖掘 。 通 过 用 户 - 文本 关系 与 文本 
- 词语 关系 传递 得 到 。 

一 除 此 之 外 ,学 者 尝试 利用 超 网 络 技术 进行 多 元 关 
系 研 合 。 例 如 肖 瑞 "构建 了 面向 网 络 社区 多 粒度 知 
襄 罚 合 的 知识 超 网 络 ,该 网 络 包含 词语 、 句 子 与 文本 3 
种 测度 知识 单元 及 共 现 .语法 .包含 .隶属 等 多 元 关系 ; 
卫生 清 等 ”构建 了 用 于 数字 资源 深度 聚合 的 数字 次 
源 趣 网 络 , 该 网 络 包含 文献 知识 著作权 人 、 物 质 载体 
3 鱼 知 识 单元 及 引用 、 共 现 、 耦 合 等 多 元 关系 。 

2 人 网 络 表示 学 习 在 知识 组 织 中 的 应 用 

网 络 表示 学 习 在 知识 组 织 中 的 应 用 研究 主要 集中 
3 方面 :学 者 合作 预测 与 论文 影响 力 预 测 。 张 金 
柱 禾 "利用 网 络 表示 学 习 从 学 者 合 著 关 系 网 络 学 习 
学 细 的 特征 向 量 ,通过 向 量 相似 度 计算 进行 学 术 合作 
预测 ;林原 等 "将 表示 学 习 综合 应 用 在 作者 .关键 词 、 
机 榴 、 作 者 与 关键 词 等 多 类 共 现 网 络 中 ,在 分 析 学 者 潜 
在 合作 可 能 性 时 ,这 种 融合 多 元 知识 单元 的 方法 克服 
了 传统 方法 重点 关注 高 产 学 者 的 不 足 ; 攀 玮 等 利用 
网 络 表示 学 习 将 论文 .作者 ,期 刊 或 会 议 3 类 知识 单元 
映射 到 低 维 稠密 向 量 空间 ,构建 能 较 好 还 原 网 络 局 部 
结构 信息 的 异 构 学 术 网 络 表示 模型 ,更 准确 预测 论文 
的 影响 力 。@ 知 识 的 表示 学 习 。 张 满 钱 等 提出 在 
文本 信息 网 络 表示 学 习 中 加 入 外 部 词 向 量 ,融合 语义 
与 结构 特征 进行 文本 的 特征 向 量 表示 ; 朱 国 进 等 " 构 
建 了 融合 命名 实体 与 词 向 量 的 网 络 文本 表示 学 习 模 
型 ; 朱 靖 去 等 "将 网 络 表示 学 习 应 用 于 HowNet 知识 
震中 ,实现 跨 语言 与 语义 单位 的 向 量 表示 。 图 社交 网 络 
用 户 关联 分 析 。 韩 忠明 等 ”利用 网 络 表示 学习 对 用 户 
属性 .网 络 结构 等 多 类 信息 融合 分 析 ,得 到 用 户 特征 向 
量 ,实现 多 角度 用 户 关联 挖 气 ; 杨 奕 卓 等 ”利用 网 络 表 
示 学 习 对 用 户 名 与 拓扑 结构 信息 进行 融合 分 析 , 得 到 账 
号 特征 向 量 , 实 现 跨 网 络 用 户 身份 匹配 分 析 。 


ea 


目前 相关 研究 主要 在 现实 需求 驱动 下 ,利用 网 络 
表示 学 习 对 多 元 关系 进行 融合 挖掘 ,实现 单一 维度 下 
的 知识 组 织 。 已 有 研究 成 果 较 为 零散 ,多 元 关联 包含 
的 知识 单元 与 关系 类 型 有 限 ,难以 支持 全 局 视角 下 的 
知识 多 维 组 织 。 


3 ”基于 网 络 表示 学 习 的 多 元 知识 关联 控 
掘 方案 设计 
3.1 基于 网 络 表示 学 习 的 多 元 知识 关联 挖掘 思路 

多 元 知识 关联 体系 是 网 络 社区 知识 组 织 细 化 和 知 
识 服 务 深化 的 基础 。 目 前 ,网 络 社 区 关系 挖 气 以 一 元 
关系 为 主 ,涉及 多 元 关系 挖 据 的 研究 主要 通过 异 构 网 
络 进行 多 元 关联 描述 ,尚未 真正 实现 全 局 视角 下 的 多 
元 关联 挖掘 。 网 络 表 示 学 习 是 一 种 以 初始 网 络 为 基 
础 ,将 网 络 节 点 表征 成 具有 推理 能 力 的 低 维 稠密 向 量 
的 技术 ,节点 的 低 维 稠密 向 量 表 示 在 保留 初始 网 络 信 
息 的 同时 实现 了 网 络 的 重 构 ” 。 因 此 ,笔者 提出 的 控 
掘 思路 是 :首先 ,利用 超 网 络 将 多 粒度 知识 单元 及 其 多 
元 关系 描述 在 统一 网 络 中 ,该 网 络 是 利用 网 络 表示 学 
习 进 行 全 局 视角 知识 关联 挖掘 的 基础 。 然 后 ,利用 网 
络 表示 学 习 技 术 将 知识 单元 表征 成 结构 统一 的 向 量 集 
合 ,一 个 向 量 代 表 一 个 知识 单元 ,知识 单元 关联 由 向 量 
相似 度 表 征 。 笔 者 将 这 种 知识 单元 及 其 关联 集合 称 为 
网 络 社区 多 元 关联 体系 ,该 关联 体系 能 被 计算 机 快速 
处 理 分析 ,可 作为 领域 背景 知识 支持 知识 的 多 维 组 织 。 
具体 思路 见 图 1。 

3.2 ”基于 网 络 表示 学 习 的 多 元 知识 关联 挖掘 流程 

网 络 社区 多 元 知识 关联 体系 是 通过 对 网 络 社区 知 
识 超 网 络 进行 网 络 表 示 学 习 得 到 ,而 多 粒度 知识 单元 
识别 与 多 元 关系 挖掘 又 是 知识 超 网 络 构建 的 基础 ， 
此 笔者 提出 的 流程 主要 包括 3 部 分 ,具体 如 图 2 所 示 。 
值得 一 提 的 是 流程 第 一 部 分 ,将 列举 多 粒度 知识 单元 
的 多 元 关系 挖掘 方法 ,在 实际 应 用 中 可 根据 网 络 社区 
特点 确定 具体 挖掘 方式 。 

(1) 网络 社区 知识 单元 库 构 建 。 包 括 多 粒度 知识 
单元 识别 知识 单元 多 种 关系 挖掘 结构 化 表示 与 存储 
3 部 分 ,具体 内 容 如 下 : 

多 粒度 知识 单元 识别 。 网 络 社区 中 知识 单元 主要 
包括 3 类 , 即 用 户 文本 与 词语 ,文本 又 可 细 分 为 全 文 
本 与 句子 文本 。 考 虑 大 多 网 络 社区 文本 长 度 较 短 , 传 
统 主题 句 提取 方法 作用 有 限 ,这 里 不 考虑 句子 文本 ,下 
文 所 述 文本 均 是 指 全 文本 。 
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文本 


词语 层 


网 络 社区 知识 超 网 络 


回 > 本 


二 词语 


IVixk 


网 络 表示 学 习 站 


1 网 络 社区 多 元 知识 关联 体系 构建 思路 


领域 词典 


领域 专用 词典 | 


领域 主题 词典 nl 
领域 百科 词典 nl 


1. 网络 社 区 知识 单元 库 构 建 


多 粒度 知识 单元 识别 


知识 单元 多 元 关系 挖 据 


络 社区 知识 3. 网 络 社区 多 元 知识 关联 


网 
超 网 络 体系 生成 


网 络 表示 学 习 算法 选择 


多 元 知识 关联 体系 可 视 化 


ss 图 2 


-Ri 单元 多 元 关系 按 所 。 用 户 -用 户 关系 分 为 直 
接 关系 与 间接 关系 ,本 文 多 元 关联 体系 涉及 网 络 社区 
多 粒度 知识 单元 及 其 关系 ,用 户 之 间 的 间接 关系 可 通 
过 分 析 用 户 与 词语 .用户 与 文本 等 关系 得 到 ,这 里 只 
虑 用 户 通 过 回复 ,关注 等 行为 建立 的 直接 关系 ;词语 - 
词语 关系 包括 两 类 :一 类 是 包含 用 户 标签 的 ,可 通过 统 
计 用 户 标 签 共 现 频次 得 到 , 另 一 类 缺乏 用 户 标签 的 网 
络 资源 ,可 采用 主题 提取 技术 (如 LDA 等 ) 或 基于 领域 
词典 的 方式 从 文本 中 自动 提取 ;用 户 -文本 关系 通过 
分 析 用 户 对 文本 的 操作 行为 得 到 ,关系 类 型 阐 值 可 人 
工 确定 ,关系 强 度 由 类 型 阅 值 与 行为 强度 综合 决定 ; 文 


网 络 社 区 多 元 知识 关联 体系 构建 流程 


文本 关系 ,文本 -词语 关系 的 传递 得 到 。 
结构 化 表示 与 存储 。 知 识 单元 存储 形式 为 : 
knowledge_unit = < entity ,type ,description > 
式 (1) 
其 中 ,entity 表示 知识 单元 ,type 表示 知识 单元 类 
型 ,如 文本 、 用 户 或 词语 ,description 表示 对 知识 单元 的 
描述 。 

知识 单元 关系 存储 形式 为 : 

knowledge_relationship = < entityl ,entity2 ,relation- 
式 (2) 
其 中 ,entityl 与 entity2 分 别 表示 有 关系 的 两 个 知 
识 单元 ,relationtype 表示 关系 类 型 , weight 表示 关系 强 
度 。 

(2) 网 络 社区 知识 超 网 络 抽取 。 网 络 社 区 用 户 、 
文本 与 词语 知识 单元 之 间 存 在 多 种 关系 类 型 与 关系 强 
度 计算 方式 , 仅 用 一 个 网 络 来 表征 容易 导致 节点 混乱 、 
网 络 结构 不 清晰 等 问题 。 考 虑 将 其 细 分 成 两 个 节点 类 
型 单一 、 但 关系 类 型 异 构 的 网 络 , 即 用 户 关系 网 络 与 词 
语 关 系 网 络 ,之 后 再 利用 用 户 - 文本 关系 与 文本 - 词 
语 关系 将 两 个 网 络 联通 ,形成 节点 与 关系 异 构 的 联通 
网 络 。 考 虑 传统 异 构 网 络 技术 在 多 网 络 联通 表征 方面 
作用 有 限 ,笔者 选择 超 网 络 技术 进行 网 络 社区 异 构 知 
识 关系 网 络 构建 。 美 国学 者 A，Nagurney 认为 超 网 络 
是 指 高 于 且 又 超 于 现存 网 络 的 网 络 ”” ,一 般 由 多 个 
网 络 组 成 , 超 网 络 节点 可 看 作 网 络 的 集合 , 边 是 集合 中 
网 络 的 结合 偏好 ,可 通过 对 边 的 增加 、 删 除 等 操作 实现 


type , weight > 


本 - 词语 关系 通过 分 析 词 语 在 文本 或 文本 标签 中 是 否 
出 现 得 到 ,关系 强度 计算 方式 包括 两 种 ,一 种 只 统计 词 
语 在 文本 中 出 现 与 否 ,出 现 认为 有 关系 ,否则 无 关系 ， 
男 一 种 利用 文本 特征 权重 (如 信息 增益 、 互 信息 等 ) 进 
行 关系 强度 细 粒 度 计算 。 用 户 - 词语 关系 通过 用 户 - 


对 网 络 结构 的 调整 | 。 

网 络 社区 知识 超 网 络 的 数学 模型 与 文献 ”中 的 
知识 超 网 络 模型 类 似 , 只 需要 将 其 中 句子 知识 子 网 络 
替换 成 用 户 知 识 子 网 络 。 知 识 超 网 络 的 图 模型 如 图 3 
所 示 : 
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和 一- 2 


盈 用 户 和合 文本 @ 词 语 


图 3 网 络 社区 知识 超 网 络 的 图 模型 


(3) 网 络 社区 多 元 知识 关联 体系 生成 。 网 络 表示 
是 网 络 分 析 的 基础 ,传统 表示 方法 包括 基于 邻接 矩阵 
与 网 络 图 表示 两 类 ,前 者 通过 行 向 量 来 表征 网 络 节 点 ， 
容易 导致 向量 维度 过 高 ;后 者 节点 间 有 大 量 的 关联 边 ， 
全 得 分 析 过 程 侦 向 采用 法 代 或 组 全 方式 ， 极 大 增加 算 
活 昌 间 复 杂 度 ,最 终 影 响 整个 分 析 效 果 ”"" 1。 网 络 表示 
是 一 种 将 网 络 节 点 表示 到 低 维 空间 向 量 ,并 利用 
所 时 之 赣 训 或 相似 程度 表示 节 点 之 间 关 联 的 网 络 表 
示 瑚 式 ， 该 方法 在 极 大 程度 还 原初 始 网 络 整体 结构 的 
同 请 实现 网 络 的 重 构 ,联通 了 表征 现实 存在 网 络 与 网 
纸 闻 析 利用 之 间 的 鸿沟 ,在 异 构 网 络 的 分 析 利 用 上 优 
捧 阐 显 ”-** 。 笔 者 利用 网 络 表示 学 习 将 网 络 社区 知 
调 锡 网 络 中 的 知识 4 单元 表征 为 低 维 稠密 向 量 ,实现 全 
局 视角 下 的 知识 单元 关联 发 现 ， 同时 降低 关系 异 构 对 
和 名 的 不 利 影响 。 
(5 网络 表示 学 习 算法 主要 分 为 基于 网 络 结构 与 结合 
外 嘱 信 息 两 类 ,前 者 包括 基于 和 矩阵 特征 向 量 计算 、 和 矩阵 
分 般 、 浅 层 神 经 网 络 .深层 神经 网 络 等 分 析 算 法 ,后 者 
包括 结合 文本 信息 . 边 的 标签 信息 等 分 析 算 法 1。 根 
据 分 析 对 象 特点 ,笔者 选择 基于 浅 层 神经 网 络 的 网 络 
表示 学 习 (LINE ) 算 法 ,进行 网 络 社区 知识 单元 低 维 笛 
密 向 量 表征 。LINE 算法 解决 了 deepwalk 与 node2vec 
算法 缺乏 针对 网 络 结构 优化 目标 函数 的 问题 ,同时 
保留 了 网 络 节点 的 一 阶 与 二 阶 相 似 性 ,对 于 任意 类 型 
的 大 规模 网 络 都 有 较 高 适用 性 , 且 由 于 一 阶 与 二 阶 相 
似 性 的 互补 ,使 得 该 算法 能 兼顾 网 络 的 局 部 与 全 部 结 
构 叫 ] 。 
知识 单元 关联 强度 计算 是 构建 多 元 知识 关联 体系 
的 关键 。 在 利用 LINE 算法 将 网 络 社 区 知识 单元 表征 
成 低 维 稠密 向 量 ,关联 计算 问题 就 转化 为 向 量 相似 度 
计算 。 当 前 常用 计算 方法 有 余弦 相似 度 、 相 关系 数 、 欧 
氏 距 离 . 马 氏 距离 等 。 由 于 知识 单元 已 表征 成 低 维 向 
,选择 计算 绝对 距离 的 欧 氏 距离 来 衡量 知识 单元 的 


关联 强度 。 
4 ”实证 分 析 


丁香 园 是 国内 重要 医学 社会 化 媒体 平台 ,论坛 用 
户 数 与 发 贴 数 在 学 术 型 网 络 社区 中 排名 靠 前 。 然 而 目 
前 论坛 资源 组 织 方式 仍 以 传统 发 布 时 间 、 置 项 操作 等 
为 主 ,缺乏 多 维度 面向 用 户 与 知识 内 在 关联 的 组 织 
式 。 笔 者 以 丁香 园 论坛 中 临床 医学 讨论 一 区 心血 管 专 
业 讨 论 版 数据 为 数据 源 , 构 建 面向 心血 管 领域 的 多 元 
知识 关联 体系 ,为 后 续 知 识 的 深度 聚合 与 组 织 提供 文 


持 。 
4.1 nde ee 

检索 丁香 园 心血 管 论 坛 ” 的 用 户 发 贴 信息 ,检索 
时 间 为 2019 年 3 月 17 日。 选用 火车 浏览 器 抓 取 用 户 
发 贴 文本 , 共 得 到 65 364 个 文本 。 一 个 文本 保存 为 一 
个 TXT 文档 ,每 个 文档 中 包括 用 户 .用 户 发 贴 与 用 户 


回 贴 3 类 信息 。 

由 于 丁香 园 心血 管 论坛 尚未 提供 用 户 标 签 功能 ， 
笔者 利用 领域 词典 识别 词语 粒度 知识 单元 。 ul 
分 析 考 虑 以 “39 疾病 百科 ”中 “心血 管内 科 ” 栏 目 ” 为 
数据 源 提取 心血 管 领域 术语 。“39 疾病 百科 ”以 信息 
框 方式 为 每 种 疾病 做 了 详细 的 结构 化 注释 ,这 种 结构 
化 注释 不 但 是 词典 术语 的 重要 补充 ,也 是 术语 类 别 划 
分 的 重要 依据 。 从 网 站 中 共 采 集 到 2 211 个 术语 ,将 
其 划分 为 疾病 (包括 病症 、 别 名 、 并 发 症 )、 器官 ( 即 发 
病 部 位 ) 症状 .诊断 ( 即 诊断 方法 )4 类 ,具体 如 表 1 所 
不 : 


表 1 心血 管 领域 术语 词典 的 数据 统计 


序号 术语 类 型 术语 个 数 类 型 标签 术语 示例 


1 疾病 1177 /njb 和 冠 心病 ,心绞痛 \ 原 发 性 高 血压 …… 
2 。 器官 93 /nqg 。 心肌 .心脏 .血管 内 皮 、 心 室 …… 

3 症状 ”652 /nzz 心肌 缺 血 ,疼痛 、 低 血 钾 .紧张 …… 
4 诊断 289 /nzd 血 常 规 心 包 积 液 检查 .舒张 压 …… 


4.2 ”丁香 园 心血 管 论坛 知识 单元 库 构建 与 知识 超 网 
络 抽取 

笔者 从 TXT 文档 中 分 别提 取 用 户 与 发 贴 的 文本 
言 息 ,统计 共 现 频次 ,得 到 用 户 - 用 户 关系 与 关系 强 
度 、 用 户 - 文本 关系 与 关系 强度 ;然后 利用 上 一 步 构建 
的 心血 管 领域 术语 词典 对 文本 进行 分 词 ,通过 统计 得 
到 文本 - 词语 关系 与 关系 强度 ,词语 - 词语 关系 与 关 
系 强 度 .用户 - 词语 关系 与 关系 强度 。 具 体 如 表 2 所 
示 : 
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表 2 丁香 园 心血 管 论坛 知识 超 网 络 的 数据 统计 


知识 单元 类 型 ”知识 单元 数 (个 ) 关系 类 型 累计 关系 数 (次 ) 


用 户 101 333 用 户 - 用 户 7 662 814 
文本 65 364 词语 - 词语 10 628 527 
词语 1 389 文本 -用户 379 036 
四 一 文本 - 词语 589 747 
全 至 户 -词语 1 901 896 
总 计 168 086 总 计 21 162 020 
168086 100 


4.3 丁香 园 心 血管 论坛 多 元 知识 关联 体系 生成 
基于 上 步 构 建 的 知识 超 网 络 ,利用 LINE 算法 对 丁 
香 园 心血 管 论坛 中 知识 单元 进行 低 维 稠密 向 量 表示 ， 


向 量 维度 人 工 设 定 为 100 ,得 到 168 086 个 知识 单元 的 
见 图 4)。 图 4 中 第 一 行 表示 
丁香 园 心血 管 论坛 多 元 知识 关联 体系 中 共有 168 086 
个 知识 单元 ,每 个 知识 单元 由 100 维 向 量 来 表征 , 除 第 


低 维 稠密 向 量 (部 分 结果 


一 行 外 的 第 一 列 为 知识 单元 在 关联 


他 列 为 对 应 向 量 值 。 


2068586 -0.063750 -0.166747 0.096587 -0.038335 -0.090679 0.118372 -0.003603 0.051302 0.041020 
2068547 -0.043186 0.073899 0.090871 -0.011568 -0.162485 0.223191 -0.140036 -0. 
2068589 -0.052517 -0.222932 0.112728 -0.183982 -0.037297 0.099639 -0.043205 0.024871 -0.033980 


2068581 -0.123077 -0.102651 0.154516 -0.073868 0.054135 0.207710 
2068490 0.151873 -0.169896 0.229058 -0.158080 0.056862 0.077191 


083864 0.107657 


-0.051798 0.128170 -0.091807 
-0.196067 0.094491 0.104568 0. 


2068508 -0.111718 -0.148698 0.081895 -0.156985 -0.082217 0.178496 -0.027358 0.079761 0.138894 


2068564 -0.061852 -0.082305 0.110416 -0.186133 
2068481 -0.145192 -0.131179 0.175312 -0.231940 
2068430 -0.087248 -0.134144 0.148894 -0.243996 
2068592 -0.038122 -0.026459 0.111206 -0.156294 
2068529 -0.110655 -0.080180 0.154456 -0.176822 


2068551 -0.065146 -0.168288 0.195792 -0.284619 


02304.00298v1 


CN 基于 知识 单元 的 特征 向 量 ,选用 欧 氏 距离 计算 
16BR86 个 知识 单元 的 关联 强度 ,得 到 丁香 园 心血 管 论 


2068560 0.019455 -0.206083 0.093300 -0.132523 -0.027829 0.141227 -0.054732 0.045444 -0.019019 


0.087404 -0.043174 -0.149937 0.103714 -0.076979 
-0.004727 -0.012717 -0.157633 0.111545 0.016828 
-0.088591 0.064160 -0.156241 0.036792 0.004088 

0.012584 0.084853 -0.022706 -0. 


-0.048632 0.139124 -0.065256 
2068503 0.003016 -0.150700 0.106419 -0.099971 -0.064676 0.115089 0.008812 0. 
2067542 0.132539 -0.149857 0.184929 -0.130610 0.030856 0.150126 -0.100495 0.033820 0.147701 0. 
2068567 -0.126616 -0.095228 0.173882 -0.147645 -0.034810 0. 
-0.108883 0. 


123485 -0.115349 0. 
091641 -0.054107 0. 
2068483 -0.074371 0.076664 0.219581 -0.290244 -0.083603 -0.019419 -0.247483 0. 
2067969 -0.159036 -0.049337 0.137277 -0.037975 -0.029338 0. 
2068587 -0.043542 -0.044337 0.096026 -0.162573 -0.074094 0. 
2067596 -0.051878 -0.120159 0.146215 -0.231422 -0.182279 0. 


196659 -0.000480 0. 
144297 0.010359 -0. 
019115 -0.091597 0. 


4 了 丁香 园 心 血管 论坛 多 粒度 知识 单元 的 向 量 表示 ( 部 分 ) 


018120 -0.079673 


-0.014050 0.015069 
051971 0.061566 -0 


056580 0.055289 
007252 0.024515 
302872 0.031501 
131555 -0.171301 
028640 0.046922 
068603 0.037061 


本 系 中 的 古 号 ,其 


体 如 表 3 所 示 。 值 得 一 提 的 是 ,笔者 在 构建 术语 词典 
时 对 术语 进行 了 类 型 标注 ,因此 多 元 关联 体系 中 的 词 


壕 葬 多 元 知识 关联 体系 。 以 疾病 “高 血压 "为 例 展示 
词 加 知识 单元 在 多 元 关联 体系 中 的 多 元 关联 集合 , 具 


语 关联 除了 包含 关联 强度 外 还 包含 关联 类 型 ,这 种 细 
粒度 关联 类 型 是 支持 网 络 社区 高 级 知识 服务 基础 。 


ee 表 3 “高 血压 ”的 多 元 知识 关联 集合 (部 分 ) 
《排序 关联 文本 人 D 欧 氏 距离 关联 用 户 欧 氏 距离 关联 词语 欧 氏 距离 关联 类 型 
1 5 204 018 1.373 744 05 小 人 物 人 小 1.013 477 049 糖尿 病 0.451 070 467 疾病 -疾病 
之 20 857 874 1.378 115 799 zhangjunbo1973 1, 119 331 951 血糖 0.929 704 086 疾病 -诊断 
EE 12 640 619 1.379 826 709 heaven197898 1. 125 586 955 紧张 0.930 057 62 疾病 -症状 
4 4 744 009 1.380 998 061 青 柳 御前 1.134 284 495 冠 心 病 0.930 181 917 疾病 -疾病 
5 5 484 572 1.381 039 39 wangyy1990 1.136 411 634 高 血压 病 0.994 399 514 疾病 -疾病 
6 26 449 216 1.388 507 339 人 竹 枝 9423 1.137 009 612 I 管 1.045 712 232 疾病 - 器 官 
六 11 429 148 1.389 119 356 xjxianjun 1.144 390 778 E 1.067 830 842 疾病 -症状 
8 18 509 594 1.389 776 15 desperado —c 1.145 501 249 综合 征 1.081 221 046 疾病 -疾病 
9 2 550 115 1.390 046 058 diasy 1.146 014 646 高 血脂 1.085 656 541 疾病 -疾病 
10 16 018 737 1.390 173 125 ahmatdr 1.159 744 804 低 血 压 1.094 429 361 疾病 -疾病 


为 了 更 好 可 视 化 表示 多 元 知识 关联 体系 ,利用 
PCA( 主 成 分 分 析 ) 进行 降 维 处 理 ,然后 利用 Python 
中 的 Matplotlib 进行 可 视 化 展示 。 以 “高 血压 ”为 例 ， 
可 视 化 展示 词语 知识 单元 的 多 元 知识 关联 集合 , 具 
体 见 图 5。 

除 此 之 外 ,为 了 更 好 地 比较 多 元 知识 关联 体系 与 


知识 超 网 络 的 优 劣 ,以 上 一 节 抽 取 的 知识 超 网 络 为 基 
础 衡量 知识 单元 的 关联 度 。 目 前 ,网 络 节点 相似 度 计 
算 方法 包括 基于 网 络 拓扑 结构 ” 、 节 点 
i。 为 简化 计算 过 程 考 虑 采用 基于 节点 属性 


的 综合 


水 日 


方法 ,首先 构建 知识 单元 的 


属性 以 及 两 者 


E 


属性 向 量 ,然后 选用 皮尔 进 


系数 衡量 知识 单元 关联 度 ,得 到 基于 超 网 络 的 知识 单 
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图 5 “高 血压 ”的 多 元 知识 关联 集合 可 视 化 结果 


元 污 联 集合 。 为 清晰 对 比 挖 所 效果 ,这 里 只 列 出 与 “高 
"关联 度 高 的 10 个 词语 ,具体 如 表 4 所 示 。 对 比 
坟 3 上 表 4 可 知 , 基 于 表示 学 习 方法 挖掘 的 关联 词语 
国 类 术语 ;上 且 挖掘 出 了 与 “高 血压 "具有 
潜 下 关联 的 术语 “糖尿 病 ”“ 冠 心病 ” 等。 糖尿病 与 高 血 
J ,目前 已 有 很 多 研究 针对 冠 心病 与 高 
合并 情况 开展 "号 ; 除 此 之 外 , 表 4 中 “颈椎 CT 检 
ww 
最 M 林 知 本 文 多 元 知识 关联 挖 据 方法 的 有 效 性 。 
Rp 基于 知识 超 网 络 的 “高 血压 ”高 关联 词语 集合 (部分) 


仿生 六 关联 词语 皮尔 逊 系数 关联 类 型 
(a 高 血脂 0.404 03 疾病 -疾病 
So 颈椎 CT 检查 0.398 32 疾病 - 诊 出 
人 高 血压 肾病 0.396 94 疾病 -疾病 
名 流 阻 力 增 加 0.393 84 疾病 -症状 
5 压 波动 大 0.391 19 疾病 -症状 

6 展 底 检 查 0.375 51 疾病 - 诊 出 

7 肾 图 检查 0.374 36 疾病 - 诊 出 

8 液 粘度 增高 0.371 32 疾病 -症状 

9 老年 人 高 血压 0.370 16 疾病 -疾病 

10 压 高 0.369 69 疾病 -症状 


4.4 了 丁香 园 心血 管 论坛 多 维 知识 聚合 原型 系统 设计 

目前 ,丁香 园 心血 管 论 坛 资源 组 织 以 置顶 操作 等 
为 主 , 且 未 提供 针对 分 论坛 的 检索 功能 。 以 “高 血压 ” 
为 关键 词 进行 全 社区 资源 检索 ,从 结果 中 提取 心血 管 
论坛 数据 ,得 到 图 6 所 示 结 果 。 这 种 基于 关键 词 匹配 
的 列表 式 资源 检索 模式 难以 满足 用 户 高 级 知识 服务 需 
求 , 因 此 考虑 以 多 元 知识 关联 体系 为 基础 ,挖掘 资源 内 
在 关联 ,通过 对 命中 资源 的 多 维 聚合 组 织 实现 多 维 知 
识 服务 。 以 关键 词 “ 高 血压 ”的 检索 结果 为 例 ,展示 多 


维 聚 合 结果 ,该 结果 通过 挖掘 丁香 园 心 血管 论坛 多 元 
知识 关联 体系 并 人 工 调 整 得 到 ,具体 如 图 7 所 示 。 图 7 
左边 是 一 级 检索 结果 ,分 别 从 文档 、 术 语 与 用 户 3 个 维 
度 展 示 了 与 “高 血压 ”高 关联 资源 ;右边 是 检索 结果 的 
二 级 扩展 ,其 中 由 为 文档 "2010 年 高 血压 防治 指南 ”的 
文档 维度 扩展 ;@ 为 “高 血压 心电图 疑惑 :为 何 出 现 顺 
种 向 转 位 "文档 中 “心电图 ”的 术语 维度 扩展 ;@) 为 术 
语 维度 检索 结果 “ 冠 心病 ”的 二 级 扩展 ;为 一 级 检索 
结果 用 户 “heaven197898” 的 文档 维度 扩展 。 通 过 多 维 
知识 聚合 用 户 除了 可 以 获取 目标 文档 外 还 可 以 进行 相 
关 术 语 扩 展 与 用 户 识别 ,实现 论坛 的 高 级 知识 服务 。 

《高 血压 图 谱 ( 第 6 版 ) 》 

《高 血 压 图 江 ( 第 6 二)》 是 俐 未 医师 ,特别 是 研究 治疗 高 血压 病 的 专业 医 呈 和 研究 人 吴 很 有 价 信 的 

参考 书 。 作 者 简 人 作者:( 美 亏 伦 但 阁 著作 高 多 译 者 .高 隐 几 上 录 算 1 童 训 血压 的 发 病 机 制 ; 这 


传 与 环境 因素 1 
丁香 园 - 心血 管 - 2018-10-29 13:11:51 加 38 


《 顽 回 性 高 血压 》pdf ,高 血压 学 科 丛书 ， 余 振 球 

本 书 从 各 个 角度 对 顽固 性 高 血压 进行 了 阐述 ， 主 要 介绍 奖 固 性 高 血压 的 界定 、 假 性 顽 加 性 高 血压 
的 重要 性 ， 尤 其 对 顽固 性 育 血 压 的 原因 做 了 全 面 、 系统 、 详 细 的 描述， 鉴于 继 发 性 高 血压 在 顽固 
性 高 血压 中 所 占 比例 较 大 


丁香 园 - 心血 管 - 2017-04-28 12:56:51 四 42 


高 血压 各 种 情况 下 的 选 药 策略 ( 完 ) 

CCB 对 心 衰 思考 没有 有 益 的 证 汇 。 如 必须 使 用 二 氢 吡 喧 类 CCB ， 可 用 氢 氨 地平 或 非 治 地 平 。 高 血 
压 所 致 的 心 亮 以 舒张 功能 不 全 为 主 ， 大 剂量 的 洋 地 黄 可 导致 心肌 浆 网 中 钙 高 子 超 负荷 ， 反 而 损害 
心肌 ,降低 心肌 顺应 性 , 加重 


丁香 园 - 心血 管 - 2018-08-02 14:28:56 四 153 


6 丁香 园 心 血管 论坛 “高 血压 ”检索 结果 ( 部 分 ) 


5 结语 


针对 网 络 社区 中 多 元 知识 关联 挖掘 面临 的 难题 ， 
笔者 提出 在 超 网 络 的 基础 上 开展 网 络 表示 学 习 的 方 
案 。 以 丁香 园 心 血管 论坛 为 例 开 展 的 实验 表明 ,该 方 
案 有 如 下 优点 :(1) 知识 单元 间 的 关联 挖掘 全 面 参照 
了 其 与 用 户 领域 术语 .文本 的 关系 ,而 非 单一 种 类 关 
系 ,这 种 全 局 视角 下 的 知识 关联 挖 据 结 果 更 为 可 靠 ; 
(2) 将 用 户 领域 术语 .文本 等 不 同类 型 知识 单元 转化 
为 同一 特征 空间 下 的 低 维 稠密 向 量 ,故而 在 后 续 知识 
关联 的 计算 中 可 屏蔽 知识 单元 类 型 差异 .关系 异 质 的 
干扰 ,多 元 关联 的 挖掘 简洁 有 效 ;(3 ) 保 留 了 知识 单元 
类 型 ,因此 所 得 的 知识 关联 除 强度 外 , 仍 保留 了 类 型 差 
异 ( 如 “用 户 -术语 “用 户 - 有 用户" 等) ,后 续 知识 组 织 
中 可 根据 应 用 场景 有 效 区 分 ,例如 ,给 定 一 个 用 户 , 根 
据 其 top N 个 最 相关 术语 对 其 打 标 签 ,根据 top N 个 最 
相关 用 户 对 其 开展 用 户 推荐 ,根据 top N 个 最 相关 帖子 
对 其 开展 资源 推荐 。 

本 文 研 究 不 足 之 处 是 在 超 网 络 构建 和 后 续 网 络 表 
示 学 习 中 ,没有 考虑 网 络 节 点 的 文本 内 容 ,目前 已 有 研 
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膏 兴 探索 利用 网 络 节点 的 外 部 信息 ( 如 文本 .标签 等 ) 
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Abstiract: | Purpose/ significance | There are many knowledge units in the network community, among which 


-here are intricate relationships. It is necessary to carry out multiple knowledge relations mining uniformly and suc- 


(uy on the premise of retaining all the relations of knowledge units. | Method/process| This paper puts forward 


the solution of multi-knowledge relations mining in network community. Firstly, 3 typical knowledge units (users, 


texts and words ) in the network community and their multiple relations in the knowledge communication were extrac- 


ted into a supernetwork. Secondly, the network representation learning algorithm was used to uniformly represent the 


nodes in the supernetwork as low-dimensional dense vectors. Finally, multiple knowledge relations calculation was 


carried out based on nodal vector. | Result/ conclusion | The effectiveness of the scheme was verified by taking car- 


diovascular BBS in dingxiang garden as an example. This scheme not only retains all the information of the knowledge 


unit, but also carries out the mining of the knowledge relation under the unified low-dimensional characteristics, and 


finally the knowledge relation meets the requirements of the diversity of the knowledge organization scene in the net- 


work community. 


Keywords: knowledge relation mining 


super network 


network representation learning 


network community 
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